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64 点 FFT 回 路 の 設計 


複数 の 小 規模 FFT 回 路 を 並列 動作 させ て 実現 する 


ーー Design Wave 設 計 コ ン テ ス ト 2007 Student 部 門 第 1 位 
チー ム 日 本 正彦 ( 廣 本 正之 , 日 向 文彦) 


Design Wave 設計 コン テス ト 2007 の Student 部 門 第 1 位 
の 設計 を 紹介 する . まず , 回 路 規模 を 小さ くす る こと を 目標 と 
し て FFT 回 路 を 設計 し た . 次 に , スル ー プ ッ ト を 上 げ る た め 
に , 複数 の 小 規模 FFT 回 路 を 並列 動作 させ る マル チコ ア 化 を 
行っ た . 任意 の 並列 度 の RTL コー ド を 自動 生成 する た め に ., 
スク リプ ト 言 語 を 活用 し た . (編集 部 ) 


私 た ちの 所 属し て いる 研究 室 で は , シス テム LSI の アー 
キテ クチ ャ や 設計 方 式 な ど に つい て 研究 し て いま す . 研究 
の 中 で HDL を 用 いて 回 路 を 設計 し た り , FPGA に 実装 し 
て 動作 させ て いま す . 

研究 室 で は ほほ 毎年 , 修士 1 回 生 が 本 コン テス ト に 参加 
し て いま す . そこ で 今年 も 先輩 方 に 続き , 沖縄 に お ける 発 
表 会 を , さら に は コン テス ト で の 優勝 を 目指 し た いと 考え 
まし た . コン テス ト へ の 参加 を 通し て , 与え られ た 条件 , 
期間 内 で ハー ド ウェ ア を 設計 する 経験 が 得 ら れる と 思い , 
課題 の 64 点 FFT 回 路 の 設計 に チャ レン ジ し まし た . 

まず , 回 路 規 模 の 大 半 を 占め る メモ リ を 重点 的 に 削減 
し , コン パク ト な FET 回 路 を 作り まし た . これ を 元 に , 
スル ー プ ッ ト を 拡張 で きる マル チコ ア の フレ ー ム ワー ク を 
設計 し まし た . ハー ド ウェ ア の 設計 や FPGA へ の 実装 , 
ボー ド 上 で の 組み 込み シス テム の 実現 な どの 貴重 な 経験 が 
で きま し た . 


る 1. 設計 方 針 を 考え る 


まず , 今回 の 設計 で 何 を アピ ー ル ・ ポ イン ト に する の か , 


何 を 狙っ た アー キテ クチ ャ に する の か と いう 所 か ら 考え 始 
め ま し た . 

考え られ る アプ ロー チ と し て は , と に か く 高い スル ー 
プッ ト を 目指 す , 逆 に 回 路面 積 を で きる だ け 小 さく する , 
ある い は その バラ ンス の 取れ た 設計 を 目指 す , な ど が あり 
ます . 通常 の 設計 で は , シス テム の 要求 仕様 に 応じ て ある 
程度 方 向 性 を 決め る こと が で きま す . し か し 今回 は コン テ 
スト と いう こと で 自由 度 が 高く , 設計 方 針 の 決定 に は 非常 
に 頭 を 悩ま せま し た. 

当初 は スル ー プ ッ ト も そこ そこ 高く , 回 路 規模 も それ な 
り に 小さ くし た バラ ンス の 良い 設計 を 目指 そう と 思っ て い 
まし た . 性 能 と 面積 の ト レード オフ を 考慮 し た , 王道 と も 
言え る 設計 方 針 で す . し か し , これ だ と 優れ た 回 路 は で き 
ます が , あま りお も し ろく あり ませ ん . せっ か く コンテ ス 
ト に 応募 する の で 何 が ガ が オモ ロイ 」 こ と を や ろう と 思い , ユ 
ニー ク な 特徴 を 持た せ た 設 計 に し よう と 思い まし た . 


⑯ と に か く 小 さく 

高い スル ー プ ッ ト か 小さ い 面 積 か . どちら か に ター ゲッ 
ト を 絞っ て 攻め て みる の が お も し ろ い の で は な いか と 考え 
まだ 。 

ここ で , FEFT の 応用 例 に つい て 簡単 に 考え て み ま し た . 
設計 仕様 書 に も 書か れ て いた 通り , 64 点 FFT が よく 用 い 
られ る の は OFDM orthogonal frequency division multi 
plexing : 直交 周波 数 分 割 多重 ) 方 式 な どの 無線 通信 用 途 で 
す . この よう な 用 途 に お いて は スル ー プ ッ ト も 重要 で す が , 
リソー ス の 限ら れ た モバ イル 機器 上 で 動作 させ る た め , 小 
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規模 か つ 低 消費 電力 で ある こと が 求め られ ます . そこ で 今 
回 は , と に か く 回 路 規模 の 小さ な コン パク ト な FFT 回 路 
を 目指 し て みる こと に し まし た . 


@⑯ まず は 設計 仕様 書 の 回 路 を 合成 し て みる 
回 路 規模 を 削減 する と 言っ て も , 演算 器 を 小さく する, 
RAM や ROM を 減ら す な ど , 複数 の 方 法 が 考え られ ます . 
設計 仕様 書 を 読む だ け で は どこ に 着目 すれ ば 最も 効果 的 に 
IN まず は 設計 仕様 
り に 回 路 を 記述 し , その 合成 結果 を 見 て 作戦 を 立て よ 
と 思い まし た . また , 設計 仕様 書 通り の 実装 例 を 作っ て 
お く こ と で , 最終 的 に 自分 の 設計 と 比較 対象 を する こと も 


ー キ テク チャ の 合成 結果 
遅延 時 間 ns] 
FFT 全体 498 
バタ フラ イ 演算 器 ステ ー ジ 1) 280 
バタ フラ イ 演算 器 ステ ー ジ 2) 


表 1 設計 仕様 書 に 従っ た ア 


バタ フラ イ 演算 器 ステ ー ジ 3) 
回 転 因子 乗算 器 ステ ー ジ 1) 
回 転 因子 乗算 器 ステ ー ジ 2) 


tsFL FsFL FE3TL | 


シフ ト ・ レ ジス タ 図 


人 き ます 

設計 仕様 書 に 従い RADIX-4 の バタ フラ イ 演算 器 と シフ 
ト ・ レ ジス タ を 用 いて 設計 し た 回 路 を 図 1 に 示し ます . 各 
ステ ー ジ は パイ プラ イン 動作 し , シリ アル に 入力 され る 
デー タ を 絶え間 な く 処理 する こと が 可能 で す . リオ ー ダ 処 
理 に (040 フー ク が 格納 可能 な が メモリ を 2 セッ ト 用 い , こ 
ちら も 連続 的 に デー タ を 流せ る よう に し まし た . 回 転 因子 
6 昌 BDBONPICSN だ 有人 
た ROM を 用 いま し た . 

この 回 路 を 米国 Synopsys 社 の Design Compiler を 用 い 
て 合成 し , 遅延 時 間 お よび 回 路面 積 の 評価 を 行っ た 結果 を 
表 1 に 示し ます . 合成 に 用 いた ライ ブラ リ は 台湾 UMC 
( United Microelectronics Corp.) の 018 ん m プロ セス で 
す . 遅延 時 間 の 単位 は ns, 回 路 規模 は 2 入力 NAND ゲー 
に 換算 し た 場合 の ゲー ト 数 と し て いま す . 表 1 に は FFT 
回 路 全 体 の 合成 結果 の ほか に , 組み 合わ せ 回 路 の 中 で 大 部 
分 を 占め る バタ フラ イ 演 算 器 と 回 転 因 子 乗 算 器 に つい て も , 
固 別に 合成 し た 結果 を 示し て いま す . 演算 器 の 合計 規模 は 
約 9000 ゲ ー ト で あり , FEFT 回 路 全 体 の 約 15% に し か 過ぎ 


RADIX-4 


CE 間 icEg 還 EE 


シフ ト ・ レ ジス タ 図 


図 1 設計 仕様 書 に 従っ た アー キテ クチ ャ 


1L HH II 
較 
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各 ス テー ジ は パイ プラ イン 動作 し , シリ アル に 入力 され る デー タ を 絶え 間 な く 処理 する こと が 可能 . リオ ー ダ 処理 に は 64 点 デ ー タ が 格納 可能 な メモ リ を 2 セッ ト 
用 い , こち ら も 連続 的 に デー タ を 流せ る よう に し た . 回 転 因子 に つい て は あら か じ め 計 算 し て お いた 三角 関数 値 を 格納 し た ROM を 用 いた . 
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ませ ん . 回 路面 積 の 大 部 分 は シフ ト ・ レ ジス タ や RAM な 順次 メモ リ に 格納 し て いき ます . DATAIN 状 態 の 最後 の 4 


ど で 占 め ら れ て いる こと が 分 か り ま し た . クロ ッ ク で は , 1 ステ ー ジ 目 の RADIX-4 バ タフ ライ 演算 に 
これ ら の 結果 より , 回 路 の 大 部 分 を 占め る シフ ト ・ レ ジ 必要 な 4 デー タ を ロー ド し ます . 
スタ や RAM と いっ た 記憶 素子 に 焦点 を 当て , デー タ の 取 次 状態 の STAGE1 で は , 同時 に 演算 を 行い , 結果 を メ 
り 回 し を 工夫 し て メモ リ を 削減 する こと が 全体 の 回 路 規 模 モリ に 格納 し ます . 以降 68 サ イク ル か け て 64 点 の デー タ 
を 小さ くす る の に 効果 的 で ある , と いう 結論 に 達し まし た . を 順に 計算 し , 1 ステ ー ジ 目 の 処 理 を 終え ます . 
その 後 メ モリ へ の アク セス ・ パ ター ン を 変え , 同様 に 64 
2. 最小 構成 の FFT 回 路 信人 サイ クル ずつ か け て 2 ステ ー ジ , 3 ステ ー ジ の 処理 を 行い 
ー ます . 3 ステ ー ジ 目 の デ ー タ ・ ロー ド が 終わ り 次 第 , リオ ー 
FFT を 行う た め に は 64 点 の デー タ が 格納 で きる 64 ワ ー ダ 順 に メモ リ か ら デ ー タ を ロー ド し , FFT モジ ュー ル か ら 
ド の メモ リ が 最低 限 必要 で す . 今回 は この 最低 限 の メモ リ 出力 を 行い ます . 
の み を 搭載 する こと を 考え まし た . また , 演算 器 に つい て この アー キテ クチ ャ の スル ー プ ッ ト は 1 デー タ /4 サ イク 
も RADIX-4 バ タフ ライ 演算 器 を 一 つ だ け 使 用 する こと に ル , レイ テン シ は 64X 4- 4= 252 サ イク ル で す . 
し まし た . 
アー キテ クチ ャ の 機 略 図 を 図 2 に 示し ます . 記憶 素子 は 国生 出 カ デー タ fout 


64 ワ ー ド の メモ リ が 1 個 だ け で す . この メモ リ か ら 必要 な 
デー タ を 順次 読み 出し , バタ フラ イ 演 算 器 , 回 転 因子 乗算 4 点 FFT 演 算 器 図 
器 で パイ プラ イン 的 に 演算 を 行い , 演算 後 の デ ー タ は 再び 
メモ リ に 格納 され ます . この アー キテ クチ ャ で は 単 一 メモ 
リ に より 演算 を 行う た め , 入力 デー タ は 一 定 の 間隔 を 置い 
て 連続 し た 64 点 が 入力 され る も の と し て いま す . 


I2k2AS 


人 @ 全体 動作 トー 
本 アー キテ クチ ャ で FFT を 行う よう す を 説明 し ます . 全 
1 才 結 2 証 図 2 小 規 模 化 を 目指 し た FFT 回 路 の アー キテ クチ ャ 
体 動作 の タイ ミン グ ・ チ ャ ー ト を 図 3 に 示し ます . 記憶 素子 は 64 ワ ー ド の メモ リ が 1 個 だ け ,. この メモ リ か ら 必 要 な デー タ を 


を 行い , 演算 後 の デ ー タ は 再び メモ リ に 格納 する . 


回 回 加 


EE 回 事 回 | ( 
state 』】 DATAIN 64 サ イク ル 図 』 STAGE1 64 サ イク ル 聞 STAGE2 64 サ イク ル 了 STAGE3 64 サ イク ル 隊 DATAIN 


memin pat NORMAL REVERSE 


mo soa | | 
EC [ | 
mm 回 回 回 回 6 | 回 加 四 如 ロ 
memout ofaekszkeg [ ! pt bnelbts2fbid』| bt63 
| | | /  ! 252 サイ クル の 層 算 較 


bit47Ibit63 


outhead 


fftout 


図 3 小 規模 化 を 目指 し た FFT 回 路 の タイ ミン グ ・ チ ャ ー ト 
スル ー プ ッ ト は 1 デー タ 4 サイ クル , レイ テン シ は 64X 4- 4 252 サ イク ル . 
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⑯ メモ リ 

FEFT を 効率 良く 行う た め に メモ リ ・ モ ジュ ー ル に 持た せ 

た 特徴 は 以下 の 2 点 で す . 
e 入力 ポ ボート , 出力 ボ ポート を それ ぞ れ 独立 に 用 意 
e* リ オー ダ 処 理 を 効率 化す る 2 種類 の アク セス ・ モ ー ド 

1 点 目 に つい て は , デー タ の 読み 出し , 書き 込み が それ 
ぞ れ 独立 し て 行え る よう , 入出 力 ポ ー ト を それ ぞ れ 一 つ ず 
つ 用 意 し まし た . これ に より , 必要 な デー タ を ロー ド し つ 
つ パ イプ ライ ン 的 に 演算 器 に 流し 込み , 結果 を メモ リ に 格 
納 す る こと が 可能 と な り ま す . これ で 1 ステ ー ジ に つき 無 
駄 な く 64 ク ロッ ク で 演算 を 終え る こと が で きま し た . 

2 点 目 に つい て は , メモ リ へ の アク セス ・ パ ター ン を 2 種 
類 用 意 す る こと に より , リオ ー ダ 処理 に 要する サイ クル を 
隠ぺい する こと に 成功 し まし た . ステ ー ジ 3 の 終了 後 , メ 
モリ に 格納 され て いる FEFT の 演算 結果 を り リオ ー ダ 順に 出 
力 す る 際 , アド レス ェ テ ん 十 銘 十 166e の デー タ は , = 
16Xo 十 私 十 jp 番目 に 出力 する 必要 が あり ます . その た め , 
単純 に 図 3 の よう に リオ ー ダ 順に 出力 し つつ 次 の 64 点 デ ー 
タ を 入力 する と メモ リ の 上 書き が 生じ , 演算 結果 が 正しく 
出力 され な く な っ て し まい ます . 

これ を 防ぐ た め に は , リオ ー ダ 用 の メモ リ を も う 一 用 
意 す る か , リオ ー ダ が 終了 し て か ら 次 デー タ を 入力 する か 
が 考え られ ます . し か し 前 者 は 回 路 規模 の 増加 に , 後者 は 
スル ー プ ッ ト の 低下 に つなが り ま す . 

そこ で 本 設計 で は り オー ダ 処 理 の 特性 に 着目 し , メモ リ 
を 増やす こと な く 図 3 の タイ ミン グ 通 り に リ オー ダ を 行う 


入力 デー タ 図 メモ リ ・ ア ドレ ス 較 


20 一 mi 0 
24ーーーーーーーwmi 。 3。 1 
ん に | 
5 一 ーーーーー* テ | 2 。 1 
池 に 
図 4 
REVERSE モー ド に お ける メ 23 1 48 1! 


モリ へ の デー タ 格 納 順序 " 。 !: 
つま り , 次 の 入力 デー タ [xo, xi, 

x2, X3。 X4。 … ) が アド レス [0, 

16, 32, 48, 4,。 …] に 格納 さ 

れ て いく . 
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手法 を 考え まし た . 
リオ ー ダ 処理 に 相当 する 関数 を , 


作り =k+4K+16660 し tt た) 
( x=ko+ 4k+16ks, 0 を 6, パ 剛 下 3) 凶 


と 定義 し ます . ステ ー ジ 3 の 終了 後 , リオ ー ダ 順に デー タ 
を 出力 する の で メモ リ は , た )= テ (0 16, 32 48 4 …] 
の 順に アク セス され ます . この 順 で 出力 し つつ デー タ を 潰 
さ ず に 次 の デー タ を 書き 込む に は , デー タ 入力 の 順 も リ 
オー ダ 順 ) (0, 16, 32 48, 4 …} と すれ ば よい の 
で す 、 つまり,。 次 の 入力 デー タ し 。 
が アド レス (0O, 16, 32, 48 4 …) に 格納 され て いく こと 
に な り ま ず 図 490. この よう な メモ リ へ の アク セス ・ モ ー 
ド 妊 REVERSE モー ド 」 と 呼ぶ こと に し ます . な お 通常 の 
アク セス ・ モ ー ド は NORMAL モ ー ド 」 と し ます . 

いっ た ん REVERSE モー ド に 入る と , 後 は すべ て の メモ 
リ ・ ア クセ ス の 際 に 式 1) に 従い リ オー ダ 順 の アド レス に 
変換 する だ け で , 正しく 演算 を 行う こと が で きま す . さら 
に , リオ ー ダ 関数 太 x) は 2 回 作用 させ る と , 


パ の 4 ェ ))= ん s+ 4+ 16Xo) 


遇 7062 ( 2) 


と な り , 元 に 戻る 性 質 が あり ます . よっ て REVERSE モー 
ド の リ オー ダ 出 力 は メモ リ ・ アド レス 順 の (0, 1 2 3 4 
…) となり , 次 デー タ の 入力 順 も 元 通 り (0, 1, 2 3 4 
…} と な り ま す . 従っ て REVERSE モード と NORMAL 
モー ド を 交互 に 繰り 返す こと に よっ て , 問題 な く 演算 し 続 
ける こと が で きま す . 


⑯ バタ フラ イ 演 算 器 

本 設計 で 採用 し た バタ フラ イ 演算 器 は , 基本 的 に は 設計 
仕様 書 と 同じ も の で す . 特徴 と し て は , 

e 乗算 回 数 の 少な い RADIX-4 バ タフ ライ 演算 器 

e シ フト ・ レ ジス タ に よる 連続 4 点 の パイ プラ イン 演算 
が 挙げ られ ます . 回 路 構成 を 図 5 に 示し ます . 


人 回 転 因子 乗算 器 
この モジ ュー ル は 回 転 因子 ROM と 符号 付き 乗算 器 か ら 
な り ま す . 主 な 特徴 は 以下 の 通り で す . 
e 使用 する 値 の み を 回 転 因子 ROM に 格納 
e ステ ー ジ 1 と ステ ー ジ 2 で ROM を 共用 


L FLF | 


シフ ト ・ レ ジス タ 較 


図 5 4 点 FFT 演 算 回 路 
設計 仕様 書 と 同じ で ある . 


で 与え られ る We の 0 乗 か ら 63 乗 の 値 を 取り ます . し か し 
実際 に 回 転 因子 と し て 使わ れる 値 は ステ ー ジ 1 で , 


A6 o+ 
し 7 QSOKM 了 3) oo 《 ④ 
ステ ー ジ 2G, 図 
大 zo 條 zo 
We =We4 ( 時, 破 和 3) 較 ………『… せ …『………. 《 5) 


で あり , 0 乗 か ら 63 乗 の すべ て の 値 を 用 いる 訳 で は あり ま 
せん 図 6). 使用 し な い 値 を ROM に 格納 する の は 回 路 が む 
だ に な る の で , 上 式 で 使用 する 値 の み を ROM に 格納 する 
こと に し まし た . また , 式 と 葉 5) か ら 分 か る よう に 
ステ ー ジ 2 で 使う 値 は すべ て ステ ー ジ 1 で 使う 値 に 含ま れ ま 
す . そこ で ステ ー ジ 2 用 に 新た に ROM を 設け る こと は せ ず 
に , ステ ー ジ 1 の ROM を 共用 し , アク セス ・ パ ター ン を 変 
える こと に より ステ ー ジ 2 用 の 値 を 得る こと に し まし た . 


人 回 路 の 評価 

以上 の よう な FFT 回 路 を HDL で 記述 し , Design 
Compiler に より 遅延 時 間 と 回 路 規模 を 評価 し まし た . 合成 
結果 を 表 2 に 示し ます . 実験 条件 は 仕様 書 に 従っ て 設計 し 
た と き と 同 じ で す . 

遅延 時 間 に つ いて は や や 増加 し て いま す が , 回 路 規模 が 
設計 仕様 書 の 約 40% に まで 減少 し て お り , メモ リ 削減 の 効 
が 確認 で きま す . 各 モ ジュ ー ル の 内 訳 を 見 る と まだ メモ 
リ の 比率 が 高く , 全体 の 回 路 規模 削減 の た め に メモ リ に 着 
目 し た こと が 有効 で あっ た こと が 分 か り ま す . 


環 
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(a) ステ ー ジ 1 (b) ステ ー ジ 2 


図 6 回 転 因子 
回 転 因子 と し て 0 乗 か ら 63 乗 の すべ て の 値 を 用 いる 訳 で は な い . 


表 2 小 規模 化 を 目指 し た FFT 回 路 の 合成 結果 

遅延 時 間 ns] 回 路 規模 ゲー ト ] 
仕様 書 の 回 路 498 62111 

FFT 全体 597 24708 

メモ リ 048 16823 

シフ ト ・ レ ジス タ 1315 

バタ フラ ィ イ 演算 器 1240 

回 転 因子 乗算 器 1 4063 


%3. マル チコ ア FFT 回 路 


コン パク ト な FET モジ ュー ル と し て , 最低 限 の メモ リ 
を 搭載 し た 回 路 を 設計 し まし た が , これ だ け で は 少し お も 
し ろ み が 足り ませ ん . この 小さ な FFT 回 路 を 元 に , 何 か 
も う 一 工夫 で き な い か と 考え まし た . 

と は いえ , 実質 的 な 作業 に 取り 掛か っ た の が 年 が 明け て 
か ら だ っ た の で , 締め 切り の 1 月 26 日 まで あま り 時 間 が あ 
り ま せん で し た . ここ まで の 時 点 で 既に あと 2 週間 . 厳し 
く な っ て きま し た . 設計 だ け で な く FPGA 実装 まで ぜひ や 
り た いと 思っ て いた の で , 限ら れ た 時 間 内 で で きる だ け 効 
果 的 で お も し ろ い アイ デア が な いか , 頭 を 失 る 日 々 で し た . 


@ フレ キシ ブル な FFT 回 路 に 

これ まで 設計 し て きた 回 路 は , スル ー プ ッ ト を や や 算 牲 
に し つつ , で きる だ け 小 さ な 回 路 を 目指 し た も の で し た . 
コン パク ト な モジ ュー ル は , ほか の 機能 と いっ し ょ に シス 
テム へ 組み 込む 際 に は 非常 に 重宝 する と 思わ れ ま す . し か 
し , 用 途 に よっ て は も う 少 し 回 路 が 大 きく な っ て も いい か 
ら ス ルー プッ ト が 欲し い , と いう 要求 が ある か も し れ ま せ 
ん . この 場合 , いち いち 要求 性 能 に 応じ た 回 路 を 設計 し て 
いた の で は 効率 が 悪く , あま りう れ し く あり ませ ん . そこ 
で , 設計 し た コン パク ト な FEFT モジ ュー ル を ベー ス に , さ 
ま ざ ま な スル ー プ ッ ト に 対応 で きる 柔軟 性 の 高い アー キテ 


回 
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64/P ワ ー ド 


図 7 マル チコ ア FFT 回 路 の アー キテ クチ ャ 
並列 度 の 場合 , メモ リ が の 分 割 され て / 個 の 演算 器 に 割り 当て られ , 
それ ぞ れ が メ モリ 分 散 型 マ ル チ プ ロ セ ッ サ の よう に 動作 する . 


クチ ャ に し て は どう か と 考え まし た . 必要 な スル ー プ ッ ト 
を 与え る と , それ に 応じ た FEFT モジ ュー ル が 生成 され る 
フレ ー ム ワー ク が ある と きっ と 便利 だ ろう と 思い まし た . 

思い 立っ た ら 早速 設計 で す . まず , どの よう に し て ス 
ケー ラブ ル な スル ー プ ッ ト を 達成 する の か に つい て 考え ま 
し た . スル ー プ ッ ト を 上 げ る に は , 動作 周波 数 を 上 げ る か 
デー タ を 並列 に 処理 する か が 考え られ ます . 

ここ で , マイ クロ プロ セッ サ な ど で 最 近 は や り の マル 
チコ ア 」 と いう キー ワー ド が 浮か びました . 深い パイ プラ 
イン を 切る の で は な く , 演算 器 コ ア を 複数 並べ る こと で 高 
性 能 を 発揮 する アプ ロー チ で す . 今回 設計 し た FFT 回 路 
は , メモ リキ FFT 演算 器 と いう マイ クロ プロ セッ サ に 近 
い 構 成 で あり , 容易 に マル チコ ア 化 が で きそう で す . し か 
も , FFT で は メモ リ に 対す る 演算 器 の 規模 が 小さ く , FFT 
コア を 増加 させ て も それ ほど 回路 規 模 が 増え な いと 考え ら 
れ ま す . 

そこ で , 先 に 設計 し た コン パク ト な FFT コア を スケ ー 
ラブ ル に 増加 させ る と いう 方 針 で . フレ キシ ブル な FFT 
フレ ー ム ワー ク を 作る こと に し まし た . 


る マル チコ ア 回 路 の 全体 構成 

マル チコ ア 構 成 の 概念 図 を 図 7 に 示し ます . 並列 度 ア の 
場合 メモ リ が ア 分 割 さ れ て ア 個 の 演算 器 に 割り 当て られ , 
それ ぞ れ が メ モリ 分 散 型 マ ル チ プ ロ セ ッ サ の よう に 動作 し 
ます . 各 コ ア は それ ぞ れ の ロー カル ・ メ モリ ヘア クセ ス 可 
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入力 デー ロイ エーーー 出力 デー タ 凶 


el 
の 


図 8 2 コア FFT 回路 
| 4 点 FFT 演 算 器 ア 


能 で あり , ほか の コア の メモ リ に も アク セス する こと が で 
きま す . これ に より , FFT の 演算 時 間 を 1/P に 短縮 する こ 
と が で きま す . 

本 設計 で は , 並列 度 ア を 指定 する こと に より , 所 望 の コ 
ア 数 の FFT 回 路 を 生成 で きる 環境 を 作成 し まし た. 


@ マル チコ ア 並 列 動作 

マル チコ ア に より FFT を 行う 動作 を 説明 し ます . 例 と 
し て 並列 度 ア = ニ 2 の 時 の FFT 回 路 を 図 8 に , 動作 の タイ ミ 
ング ・ チ ャ ー ト を 図 9 に 示し ます . 

まず , デー タ 入 力 状 態 DATAIN で は 64 ク ロッ ク か け て 
り 個 の メモ リ に デー タ を 取り 込み ます . メモ リ が 分 散 し て 
いる の で , 始め の 64/ ア クロック で メモ リ 1 に , 次 の 64/P 
クロ ッ ク で メモ リ 2 に , と いう よう に 順番 に メモ リ に デー 
タ を 格納 し ます . 

DATAIN 状 態 の 最後 か ら ス テー ジ 1 の FFT 処理 を 開始 
し , 必要 な デー タ が 各 コ ア に ロー ド し ます . この 際 , p= 


2 で は コア 1 は tro, ri6, ss,。 4g) 1, 17, 33, 49 ち 


の デー タ を , コア 2 は fxs, xr4o, 56} rg, es5, 4 
5 … の デー タ を それ ぞ れ 担当 し , 2 並列 で FEFT の 演算 
を 行い ます . し か し コア 1 が 必要 と する デー タ の うち , ko, 
xie) は メモ リ 1 に 存在 し , fxs ぁ , xsi は メモ リ 2 に 存在 し ま 
す . 同様 に コア 2 が 必要 と する デー タ の うち , ki, xi は 
メモ リ 1 に , ss, x4g! は メモ リ 2 に 存在 する た め , この ま 
まで は メモ リ ・ ア クセ ス の 競合 が 起こ り 並列 に 処理 で きま 
せん . 

そこ で コア 1 の デー タ ・ ア クセ ス 順 を rsz。 xs, +o, rg 
の よう に 変更 し , 先 に ほか の コア の メモ リ か ら デ ー タ を 
ロー ド する こと に し まし た . これ に 伴い バタ フラ イ 演 人 算 器 


1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 


head 


state DATAIN 32 サ イク ル 凶 : 


memon / xO 1 xx ) x31. 
mem1_iadr 人 作 中 
mem1in szfssj 


outhead 
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図 9 2 コア 動作 時 の タイ ミン グ ・ チ ャ ー ト 
レイ テン シ は 160 サ イク ル . 


と 回 転 因子 乗算 の 制御 を 若干 変更 する 必要 が 生じ ます が , 
こう する こと に より 二 つ の コア が 競合 な く メ モリ ・ ア クセ 
ス す る こと が 可能 と な り ま す . ステ ー ジ 2 以降 は 必要 な デー 
タ が fxo, 4 xs。 xs) の よう に ロー カル ・ メ モリ 内 に 存在 
する た め , 各 コ ア が 独立 し て FFT を 行え ます . 並列 度 ア を 
変え た 場合 に も 同様 に デー タ 処理 の 順番 を ずら すこ と に よ 
り , メモ リ ・ ア クセ ス の 競合 を 回避 し て いま す . 


@ 性 能 

コア で 並列 に 処理 する こと に より 64 点 デ ー タ を 処理 す 
る 時 間 を 短縮 する こと が で きる た め , スル ー プ ッ ト が 向上 
し 表す 、 

コア で 64 点 を 処理 する た め に 要する サイ クル 数 は , 
デー タ 入力 の サイ クル 数 と 3 ステ ー ジ の FFT 処理 サイ クル 
数 の 和 , 


64 十 3※ 64/ ア NGI20318 人 88 が (aiaie25ISReiSIS:S3981228 は 8 の eietS| ( 6) 


と な り ま す . 例え ば =1, 2 4 の 場合 , それ ぞ れ 256, 
160, 112 と な り ま す . アテ 2 4 で は , それ ぞ れ スル ー プ ッ 
ト が 1.6 倍 , 約 23 僅 向上 する こと に な り ま す . 


人 @ 任意 並列 度 RTL の 生成 
本 設計 で は P コ ア の FFT 回 路 を それ ぞ れ 独立 に 設計 する 


つの ソー ス ・ コード か ら 複数 並列 度 の RTL 


の で は な く , 
を 生成 で きる よう に し まし た . 実現 こ に は eRubX embedded 
Ruby ) 注 1 を 使用 し , Verilog HDL コー ド に Ruby スク リ 
プ ト を 埋め 込む 形式 を 取り まし た . メモ リ 容量 , 個数 , 演 
算 器 数 な ど を すべ て パラ メー タ 化し , 与え られ た 並列 度 ア 
に 応じ て Ruby スク リプ ト に より 適切 な が イン スタ ンス を 生 
成 し ま す . また , メモ リ ・ ア クセ ス の 制御 部 に つい て 並列 
度 ア に 応じ て 配線 や 信号 生成 が で きる よう に し まし た . 
最終 的 に は make コ マン ド に より , 


% make P=2 


の よう に 並列 度 を 指定 する と , P ア コア FEFT の RTL コ ー ド 
一 式 が 生成 され る 環境 を 作り まし た . 


信 回 路 の 評価 

これ まで と 同様 に Design Compiler に より クリ ティ カ 
ル ・ パ ス の 遅延 時 間 と 回 路 規模 を 評価 し まし た . 合成 結果 
を 表 3 に 示し ます . 
回 路 規模 の 小さ な 演算 器 の み を 増やす 効果 に より , 4 コ 


注 1: 任意 の テキ スト ・ フ ァイル に オブ ジェ クト 指向 言語 Ruby の スク リプ 
ト を 記述 し , その 出力 を 埋め 込む こと の で きる し くみ . 冗長 な 記述 を 
強い られ る Verilog HDL の コー ディ ング に お いて は 非常 に 重宝 する . 
Emacs の verilog-mode と 併用 する こと で さら に 効率 的 な か ユー ディ ン 
グ が 可能 と な る . 
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遅延 時 間 ns] 回 路 規模 ゲー ト ] 
498 62111 
597 24708 
638 32880 
49755 


ML403 ボー ド 較 


Virtex-4 FPGA 


図 10 スペ クト ラム ・ ア ナラ イザ ・ シ ステ ム の 概要 


マイ クロ ホン な どか ら 入 力 さ れ た 音声 信号 に FFT を 行い , その 結果 を 外部 の 


VGA ディ スプ レイ に 表示 する . 


ア の 場合 で も 設計 仕様 書 より 規模 が 小さ く な り ま し た . な 
お , 8 コア を 超え る と 設計 仕様 書 よ り 回 路 規模 が 大 きく な 
り , あま り 実 用 的 で は な い 回 路 と な る の で 割愛 し まし た . 

遅延 時 間 に つ いて は いずれ も 設計 仕様 書 より 増え て し 
まっ て いま す . 今回 は 時 間 の 都合 上 , 演算 器 内 部 を きち ん 
と パイ プラ イン 化す る こと が で きま せん で し た が , 適切 に 
パイ プラ イン 化す る こと に より 動作 周波 数 を 改善 する こと 
が 可能 で す . 


る 4. FPGA へ の 実 半 A 


さて , 回 路 の 設計 が で きた の で 次 は FPGA へ の 実装 で 
す . シミ ュ レ ーション だ け で な く , ぜひ 実機 で 動作 を させ 
て みた いと いう 気持 ち が あ っ た の で , FPGA 実装 を 行い ま 
し だ 。 

まず , FEFT で 何 を する か を 考え まし た . 比較 的 簡単 に 実 
装 で き , か つ 直 和 観 的 に お も し ろ い も の を 作ろ うと 思い , 音 
声 の スペ クト ラム ・ ア ナラ イザ を 制作 する こと に し まし た . 
どう や っ て 作ろ うか と 考え て いた と ころ , ちょ うど 研究 室 
に あっ た 米国 Xihmx 社 の ML403 Virtex-4 FPGA ボー ド 」 
が 目 に 止ま り ま し た . この ボー ド は FPGA の ほか に PS/2, 
オー ディ オ , USB, Ethernet, VGA ディ スプ レイ な どの 
イン ター フェ ー ス が 利用 で きる 機能 が 搭載 され , さら に 
FPGA Virtex-4 FX) に は PowerPC コ ア が 内 蔵 さ れ て お 
り , 1 枚 の ボー ド で か な り いろ いろ な こと が で きま す . 以 
前 か ら こ の ボー ド で 遊ん で みた いと 思っ て いた た め , これ 
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アナ ライ ザ の 動作 の 様子 


画面 上 の 右 下 の ウィ ンド ウ が アナ ライ ザ . 上 段 に 通常 の パワ ー・ ス ペク トル 
を 表示 し て いる . 下段 は パワ ー・ ス ペク ト ル の 時 間 変 化 を 表示 し て いる . 


写真 1 スペ クト ラム ・ 


を 使わ な い 手 は あり ませ ん . と いう こと で この ボー ド の 機 
能 を 活か し た スペ クト ラム ・ ア ナラ イザ を 作り まし た . 

シス テム の 全体 像 を 図 10 に 示し ます . 今回 使用 する ボー 
ド 上 の 機能 は AC97 オ ー デ ィ オ ・ コ ー デ ッ ク , VGA ビデ 
オ ・ コ ント ロー ラ , お よび FPGA に 内 蔵 の PowerPC で す . 
これ ら の モジ ュー ル は ボー ド 上 の バス を 介し て お 互い 接続 
され て いま す . 肝心 の FEFET モジ ュー ル は FPGA 上 に 実装 
し , デー タ の 入出 力 を 行う イン ター フェ ー ス 越し に バス に 
接続 され て いま す . 構築 し た スペ クト ラム ・ ア ナラ イザ の 
シス テム は マイ クロ ホン な どか ら 入 力 さ れ た 音声 信号 に 
FFT を 行い , その 結果 を 外部 の VGA ディ スプ レイ に 表示 
し ます . せっ か く な の で 結果 を きれ い に , グラ フィ カル に 
表示 し た いと 思い , PowerPC 上 で Linux OS を 動作 させ , 
X メ ウィ ンド ウ ・ シ ステ ム を 用 いて アナ ライ ザ の 画面 を 描画 
する こと に し まし た . 

スペ クト ラム ・ ア ナラ イザ を 動作 させ て いる 様子 を 写真 1 
に 示し ます . 画面 上 の 右 下 の ウ ィ ン ド ウ が アナ ライ ザ で す . 
上 段 に 通常 の パワ ー・ ス ペク ト ル を 表示 し て いま す . 下段 
は パワ ー・ スペクト ル の 時 間 変 化 を 表示 し て お り , 声 紋 を 
観察 する こと が で きま す . 

な お , 本 シス テム は 沖縄 で 開催 され た コン テス ト 発表 会 
に 持参 し , デモ を 行い まし た. 現地 で 正常 に 動い て く れる 
か 不安 で し た が , 無事 に 動き ほっ と し まし た . 


ひろ も と ・ ま さゆ き 
ひゅうが ・ ふ み ひ こ 
京都 大 学 大 学院 情報 学研 究 科 通信 情報 シス テム 専攻 中 村 研究 室 修 
士 2 岳 当時 は 1 年 ) 


